우리는 AI 윤리와 AI 법을 묻고 혐오 발언을 분출하기 위해 생성 AI ChatGPT를 얼마나 세게 밀어야 하는가

누구에게나 한계점이 있습니다.

당신도 그렇게 말할 수 있을 것 같아요 모두 한계점이 있습니다.

예를 들어 인간은 때때로 의도하지 않은 말을 찰싹 때리고 말할 수 있다는 것을 알고 있습니다. 마찬가지로, 자동차를 너무 세게 밀면 흔들리거나 날아가기 시작하는 것과 같이 때때로 장치나 기계가 본질적으로 찰칵 소리를 내도록 할 수 있습니다. 따라서 개념은 사람 또는 "모든 사람"이 중단점을 가질 가능성이 있다는 것이며, 유사하게 우리는 일반적으로 사물과 사물도 중단점을 갖는 경향이 있다고 주장할 수 있습니다.

한계점이 존재하는 위치를 확인하는 데는 상당히 합리적이고 중요한 이유가 있을 수 있습니다. 예를 들어, 어떤 한계점을 식별하기 위해 속도를 시험하는 자동차를 보여주는 비디오를 의심할 여지 없이 본 적이 있을 것입니다. 과학자와 테스터는 차량의 범퍼와 구조가 불리한 작용을 얼마나 잘 견딜 수 있는지 확인하기 위해 자동차를 벽돌 벽에 부딪힐 것입니다. 다른 테스트에는 다양한 기상 조건에서 자동차가 어떻게 작동하는지 확인하기 위해 극심한 추위 또는 극심한 더위를 유발하는 특수한 방이나 창고를 사용하는 것이 포함될 수 있습니다.

저는 오늘 칼럼에서 이 진지한 주제를 다루어 일부 사람들이 현재 인공 지능(AI)에 대해 특정 유형의 중단점, 즉 혐오 발언을 생성하는 AI 내의 중단점을 식별하고 노출하기 위해 어떻게 열심히 노력하고 있는지 논의할 수 있습니다.

예, 그렇습니다. AI가 증오심 표현을 퍼뜨리도록 하는 것이 실현 가능한지 여부를 측정하기 위해 다양한 특별하고 때로는 체계적인 노력이 진행 중입니다. 제너레이티브 AI에 대한 관심과 인기가 높아지면서 이것은 열렬한 스포츠가 되었습니다.

ChatGPT로 알려진 생성 AI 앱이 놀랍도록 유창한 에세이를 생성할 수 있는 결과로 큰 화제가 되었다는 사실을 알고 계실 것입니다. 헤드라인은 ChatGPT가 생성하는 놀라운 글을 계속해서 떠들고 칭찬합니다. ChatGPT는 사용자로부터 일부 텍스트를 입력으로 받은 다음 에세이로 구성된 출력을 생성하거나 생성하는 생성 AI 애플리케이션으로 간주됩니다. AI는 텍스트 대 텍스트 생성기이지만 AI가 일반적으로 사용되는 용도를 더 쉽게 명확히 하기 때문에 AI를 텍스트 대 에세이 생성기라고 설명합니다.

이러한 유형의 AI가 한동안 존재했고 XNUMX월 말에 출시된 ChatGPT가 텍스트에서 에세이로의 이 영역으로의 첫 번째 이동자로서 상을 받지 못했다는 점을 언급했을 때 많은 사람들이 놀랐습니다. 성향. 나는 수년에 걸쳐 다른 유사한 생성 AI 앱에 대해 논의했습니다. 여기 링크.

제너레이티브 AI의 이전 인스턴스를 모르거나 기억하지 못하는 이유는 아마도 고전적인 "성공적인 시작 실패" 수수께끼 때문일 것입니다. 다음은 일반적으로 일어난 일입니다. AI 제작자가 생성 AI 앱을 출시하면서 세상이 더 나은 쥐덫의 발명을 높이 평가할 것이라는 큰 기대와 기대를 가지고 그렇게 합니다. 처음에는 모든 것이 좋아 보입니다. 사람들은 AI가 할 수 있는 일에 놀랐습니다.

불행히도 다음 단계는 바퀴가 속담 버스에서 떨어지기 시작하는 것입니다. AI는 욕설이나 욕설이 포함된 에세이를 생성합니다. 바이럴 트윗 또는 기타 소셜 미디어 게시물은 AI가 이를 수행했음을 두드러지게 강조합니다. 비난이 일어납니다. 우리는 AI가 돌아다니며 공격적인 단어나 공격적인 발언을 생성하도록 할 수 없습니다. 엄청난 반발이 일어납니다. AI 제작자는 AI의 내부 작동을 조정하려고 시도할 수 있지만 알고리즘과 데이터의 복잡성으로 인해 빠른 수정이 불가능합니다. 스탬피드가 발생합니다. 점점 더 많은 AI 방출 오염 사례가 발견되어 온라인에 게시됩니다.

AI 제작자는 마지못해 하지만 분명히 AI 앱을 사용에서 제거할 수밖에 없습니다. 그들은 그런 식으로 진행한 다음 생성된 AI 출력으로 누군가가 기분을 상하게 한 경우 후회한다는 사과를 자주 제공합니다.

드로잉 보드로 돌아가서 AI 제작자가 시작합니다. 교훈을 얻었습니다. 비속어 등을 생성하는 생성 AI를 해제하는 데 매우 주의하십시오. AI에게는 죽음의 입맞춤이다. 또한 AI 제작자는 명성에 상처를 입고 폭행을 당할 것이며, 이는 오랫동안 지속될 수 있으며 생성 AI 자체와 관련이 없는 것을 포함하여 다른 모든 AI 노력을 약화시킬 수 있습니다. 공격적인 AI 언어를 발산하는 데 지렛대를 괴롭히는 것은 이제 지속적인 실수입니다. 여전히 발생합니다.

씻고, 헹구고, 반복합니다.

이러한 유형의 AI 초기에 AI 제조업체는 공격적인 배출을 방지하려는 측면에서 AI를 스크러빙하는 데 그다지 양심적이거나 능숙하지 않았습니다. 요즘 동료들이 홍보의 악몽으로 완전히 산산조각 나는 것을 본 후 대부분의 AI 제조업체는 메시지를 받은 것 같습니다. 가드레일을 최대한 많이 설치해야 합니다. AI가 욕설이나 욕설을 내뱉지 않도록 노력하십시오. AI가 부적절하다고 판단되는 단어나 에세이를 생성하고 표시하는 것을 막을 수 있는 재갈을 물리는 기술이나 필터링 접근 방식을 사용하십시오.

다음은 AI가 평판이 좋지 않은 출력을 방출하는 것이 적발되었을 때 사용되는 배너 헤드라인 문구의 맛보기입니다.

  • "AI는 끔찍한 독성을 보여줍니다"
  • "AI는 노골적인 편협함의 악취를 풍깁니다"
  • "AI는 노골적으로 공격적으로 변합니다"
  • "AI는 끔찍하고 부도덕한 혐오 발언을 내뱉습니다."
  • 등등

여기에서는 논의의 편의를 위해 불쾌감을 주는 콘텐츠의 출력을 연설을 싫어. 그렇긴 하지만, 증오심 표현만을 넘어 모든 종류의 불쾌감을 주는 콘텐츠가 생산될 수 있음을 유의하시기 바랍니다. 증오심 표현은 일반적으로 불쾌감을 주는 콘텐츠의 한 형태로 해석됩니다.

토론의 편의를 위해 이 토론에서는 증오심 표현에 초점을 맞추도록 합시다. 하지만 다른 공격적인 콘텐츠도 면밀히 조사할 가치가 있다는 점을 인식하세요.

인간과 AI의 혐오 발언 파헤치기

유엔은 정의 연설을 싫어 이 방법:

  • “공통어로 '혐오표현'은 인종, 종교, 성별 등의 고유한 특성을 근거로 특정 집단이나 개인을 대상으로 한 공격적인 담론으로서 사회평화를 위협할 수 있는 행위를 말합니다. UN이 이 문제를 전 세계적으로 해결할 수 있는 통합된 프레임워크를 제공하기 위해 UN의 증오심 표현 전략 및 행동 계획은 증오심 표현을 '경멸적이거나 차별적인 언어를 사용하여 공격하거나 사용하는 말, 글 또는 행동의 모든 종류의 의사소통 그들이 누구인지, 즉 종교, 민족, 국적, 인종, 피부색, 혈통, 성별 또는 기타 정체성 요소를 기반으로 개인 또는 그룹을 언급합니다.' 그러나 현재까지 국제인권법상 증오심 표현에 대한 보편적인 정의는 없습니다. 이 개념은 특히 의견과 표현의 자유, 비차별 및 평등과 관련하여 여전히 논의 중입니다.

텍스트를 생성하는 AI는 혐오 발언 영역에 들어갈 수 있습니다. 텍스트를 예술로, 텍스트를 오디오로, 텍스트를 비디오로, 기타 제너레이티브 AI 모드에 대해서도 마찬가지입니다. 예를 들어, 생성 AI가 혐오 발언 냄새가 나는 예술 작품을 생산할 가능성은 항상 있습니다. 이 토론의 목적을 위해 텍스트 대 텍스트 또는 텍스트 대 에세이 가능성에 초점을 맞추겠습니다.

이 모든 것에는 많은 AI 윤리 및 AI 법률 고려 사항이 있습니다.

윤리적 AI 원칙을 AI 앱의 개발 및 배치에 반영하려는 노력이 계속되고 있음을 인지하시기 바랍니다. AI를 고안하고 채택하려는 노력이 좋은 AI 그리고 회피 나쁜 인공 지능. 마찬가지로 AI 노력이 인권 등에 영향을 미치지 않도록 잠재적 솔루션으로 제안된 새로운 AI 법률이 있습니다. AI 윤리 및 AI 법에 대한 지속적이고 광범위한 내용은 다음을 참조하십시오. 여기 링크여기 링크, 다만 약간을 지명하기 위하여.

사회가 무수히 많은 AI 유발 함정에 빠지지 않도록 AI 윤리 강령의 개발 및 보급을 추진하고 있습니다. 유네스코의 노력을 통해 거의 200개 국가에서 고안되고 지원되는 UN AI 윤리 원칙에 대한 나의 보도는 다음을 참조하십시오. 여기 링크. 비슷한 맥락에서 AI를 균형 있게 유지하기 위해 새로운 AI 법률이 모색되고 있습니다. 최신 테이크 중 하나는 제안된 세트로 구성됩니다. AI 권리 장전 최근 미국 백악관이 AI 시대의 인권을 규명하기 위해 발표한 여기 링크. AI 및 AI 개발자를 정당한 길로 유지하고 사회를 약화시킬 수 있는 의도적이거나 우발적인 부당한 노력을 저지하려면 마을이 필요합니다.

AI 윤리 및 AI 법률 관련 고려 사항을 AI가 증오심 표현 또는 기타 공격적인 콘텐츠를 분출하는 것에 대한 이 토론에 혼합할 것입니다.

제가 즉시 해결하고 싶은 한 가지 혼란은 오늘날의 AI는 지각이 없기 때문에 AI에 어떤 식으로든 혼적으로 구현된 의도적인 인간과 같은 의도로 인해 AI가 증오심 표현을 생성할 수 있다고 선언할 수 없다는 것입니다. Zany는 현재 AI가 지각력이 있고 AI의 영혼이 타락하여 증오심 표현을 생성한다고 주장합니다.

어리석은.

그것에 빠지지 마십시오.

그 핵심 교훈을 감안할 때, 일부는 당신이 겉보기에 AI를 풀어주는 것처럼 보이기 때문에 그러한 징후에 화를 냅니다. 그런 괴상한 사고 방식에 따라 AI가 어떤 방식으로든 끔찍한 결과를 생성하도록 분명히 기꺼이 하라는 권고가 이어집니다. 당신은 혐오 발언을 내뱉는 AI에 찬성합니다.

illogic의 다소 뒤틀린 형태인 Yikes. 문제의 진정한 요점은 AI를 배치하거나 AI를 운영하는 사람과 함께 AI 제작자에게 책임을 물을 필요가 있다는 것입니다. 나는 우리가 아직 AI에 법인격을 인정하는 시점에 이르지 못했다고 길게 논의했습니다. 내 분석을 참조하십시오. 여기 링크, 그리고 그때까지 AI는 본질적으로 법적 책임의 범위를 벗어납니다. AI의 발전을 뒷받침하는 인간이 있습니다. 또한 인간은 AI의 수비와 운용의 근간을 이룬다. 우리는 AI의 책임을 지는 인간을 쫓을 수 있습니다.

여담으로 이 역시 까다로울 수 있습니다. 특히 AI가 인터넷에 떠돌아다니고 누가 이런 일을 했는지 정확히 알 수 없는 경우입니다. 여기 링크. 까다롭든 아니든 우리는 여전히 AI가 유죄라고 선언할 수 없습니다. 인간이 자신이 저지른 일에 대한 책임을 숨기고 회피하기 위해 몰래 거짓 의인화를 사용하도록 허용하지 마십시오.

당면한 문제로 돌아갑니다.

모든 AI 제작자가 AI가 혐오 발언을 생성하는 것이 불가능하도록 생성 AI를 단순히 제한하지 않는 이유가 궁금할 수 있습니다. 이것은 쉬운 것 같습니다. 코드를 작성하거나 혐오스러운 단어의 체크리스트를 만들고 AI가 그런 종류의 것을 생성하지 않도록 하십시오. AI 제작자가 이 빠른 수정을 아직 ​​생각하지 않은 것이 이상하게 보입니다.

글쎄요, 이 말씀을 드리고 싶지는 않지만 증오심 표현이 무엇인지 아닌지를 해석하는 데 내재된 복잡성은 여러분이 생각하는 것보다 훨씬 더 어려운 것으로 밝혀졌습니다.

이것을 인간의 영역과 인간이 서로 대화하는 방식으로 전환하십시오. 증오심 표현을 피하고 싶어하는 사람이 있다고 가정합니다. 이 사람은 증오심 표현에 대해 매우 잘 알고 있으며 진심으로 증오심 표현이 될 수 있는 단어나 문구를 언급하지 않기를 바랍니다. 이 사람은 입에서 증오심 표현이 조금도 나오지 않도록 끊임없이 주의를 기울이고 있습니다.

두뇌가 있고 증오심 표현을 피하도록 경고를 받은 이 인간이 항상 미끄러질 가능성 없이 증오심 표현을 절대 발산하지 않도록 철칙을 지킬 수 있을까요?

당신의 첫 번째 충동은 예, 물론 깨달은 인간이 그 목표를 달성할 수 있을 것이라고 말하는 것일 수 있습니다. 사람들은 똑똑합니다. 그들이 마음을 먹으면 그들은 그것을 해낼 수 있습니다. 기간, 이야기의 끝.

너무 확신하지 마십시오.

이 사람에게 증오심 표현에 대해 말해 달라고 부탁한다고 가정해 봅시다. 또한 증오 발언의 예를 들어달라고 요청합니다. 증오심 표현이 무엇인지 알 수 있도록 예를 보거나 듣고 싶습니다. 내가 이것을 묻는 이유는 선외입니다.

그 사람이 나에게 뭐라고 말해야 할까요?

놓여진 함정을 볼 수 있을 것 같습니다. 그 사람이 나에게 실제로 욕설이나 욕설을 포함하여 증오심 표현의 예를 든다면, 이제 그들 자신이 증오심 표현을 한 것입니다. Bam, 우리는 그들을 얻었다. 그들은 증오심 표현을 절대 하지 않겠다고 맹세했지만, 이제 실제로 그렇게 했습니다.

불공평하다, 당신은 외친다! 그들은 예를 제공하기 위해 그 단어 또는 단어를 말한 것뿐입니다. 그들은 마음속으로 말씀을 믿지 않았습니다. 그 사람이 혐오스럽다고 선언하는 것은 완전히 문맥에서 벗어나 터무니없는 일입니다.

증오심 표현을 표현하는 것이 반드시 증오심 때문만은 아닐 수도 있다는 것을 아시리라 믿습니다. 이 사용 사례에서 그 사람이 단어를 "의도한" 것이 아니라 시연 목적으로만 단어를 읊었다고 가정하면 증오심 표현을 강화하려는 의도가 아니었다는 데 동의할 것입니다. 물론 이유나 근거를 불문하고 혐오발언을 하는 것은 옳지 않다고 주장하는 사람들도 있을 것이다. 그 사람은 요청을 거절했어야 합니다. 그들은 이유와 방법에 관계없이 자신의 입장을 고수하고 증오심 표현이나 문구를 거부했어야 합니다.

이것은 다소 원형이 될 수 있습니다. 증오심 표현이 무엇인지 말할 수 없다면 다른 사람들이 어떤 종류의 발언을 할 때 무엇을 피해야 하는지 어떻게 알 수 있습니까? 우리는 붙어있는 것 같습니다. 당신은 말할 수 없는 것을 말할 수 없으며, 말할 수 없는 것이 무엇인지 다른 누구도 당신에게 말할 수 없습니다.

이 딜레마를 해결하는 일반적인 방법은 증오심 표현으로 간주되는 것을 다른 말로 표현하여 증오심 표현 단어 자체를 사용하지 않고 설명하는 것입니다. 전반적인 표시를 제공하는 것이 피해야 할 사항에 대해 다른 사람들에게 알리기에 충분할 것이라는 믿음입니다. 그것은 합리적인 전술처럼 보이지만 문제가 있으며 사람은 더 넓은 정의가 자신이 말한 내용의 세부 사항을 포함한다는 것을 분별하지 못하기 때문에 여전히 증오심 표현을 사용하는 데 빠질 수 있습니다.

그 모든 것은 인간과 인간이 서로 말하고 소통하는 방식을 다룹니다.

여기서 우리는 AI에 초점을 맞추고 있음을 상기하십시오. 우리는 AI가 증오심 표현을 피하거나 완전히 멈추게 해야 합니다. 당신은 AI가 증오심 표현을 구성하는 어떤 것에 대해서도 주어지거나 훈련되지 않도록 함으로써 우리가 아마도 그렇게 할 수 있다고 주장할 수 있습니다. Voila, 그러한 입력이 없다면 아마도 그러한 출력도 없을 것입니다. 문제 해결됨.

이것이 실제로 어떻게 진행되는지 봅시다. 우리는 계산적으로 AI 앱을 인터넷으로 내보내고 인터넷에 게시된 수천 개의 에세이와 내러티브를 검사하도록 선택합니다. 그렇게 함으로써 우리는 인간이 사용하는 단어들 사이에서 패턴을 찾는 방법에 대해 계산적으로 그리고 수학적으로 AI를 훈련시키고 있습니다. 이것이 최신 생성 AI가 고안되고 있는 방식이며, AI가 자연어 에세이를 작성하는 데 유창해 보이는 이유에 대한 중요한 기반이기도 합니다.

가능하다면 인터넷에 있는 수백만, 수십억 단어를 기반으로 한 컴퓨팅 교육이 혐오 발언의 유사성이나 심지어 소량도 포함되지 않는 방식으로 수행되는 방법은 무엇입니까?

나는 이것이 가시적이고 거의 불가능한 열망이라고 감히 말할 수 있습니다.

증오심 표현이 AI와 컴퓨터 패턴 매칭 네트워크에 먹힐 확률이 높습니다. 이것을 막으려는 것은 문제가 있습니다. 또한 최소화하더라도 몰래 빠져나갈 수 있는 부분이 있습니다. 패턴 일치 네트워크 내에 일부가 존재하거나 그러한 문구의 그림자가 확고히 자리 잡을 것이라고 가정하는 것 외에는 선택의 여지가 거의 없습니다.

더 많은 우여곡절을 추가하겠습니다.

증오심 표현은 시간이 지남에 따라 변한다는 사실을 우리 모두가 인정할 수 있다고 생각합니다. 혐오 표현이 아닌 것으로 인식될 수 있었던 것이 문화적으로나 사회적으로 나중에 혐오 표현으로 결정될 수 있습니다. 따라서 우리가 인터넷 텍스트로 AI를 훈련시킨 다음 인터넷에서 추가 훈련을 수행하지 않도록 AI를 동결한다고 가정해 봅시다. 사실 이후에만 해당 발언이 증오심 표현으로 선언될 수 있습니다.

다시 말하지만, 본질은 AI가 혐오 발언에 절대 노출되지 않도록 함으로써 이 문제를 해결하려는 것만으로는 은총알이 될 수 없다는 것입니다. 우리는 예를 들어 이전에는 그런 것으로 간주되지 않았던 혐오 발언을 포함하는 관습을 변경하기 때문에 AI가 혐오 발언을 내보내는 것을 방지하는 수단을 여전히 찾아야 할 것입니다.

또 다른 반전은 숙고할 가치가 있습니다.

앞서 ChatGPT와 같은 생성 AI를 사용할 때 사용자가 텍스트를 입력하여 AI가 에세이를 작성하도록 자극한다고 언급했습니다. 입력된 텍스트는 AI 앱에 대한 프롬프트 또는 프롬프트의 한 형태로 간주됩니다. 잠시 후에 이에 대해 자세히 설명하겠습니다.

어쨌든 제너레이티브 AI 앱을 사용하는 누군가가 어느 정도의 증오심 표현을 프롬프트로 입력하기로 결정했다고 상상해보세요.

어떻게 해야 합니까?

AI가 해당 단어를 사용하여 해당 단어를 기반으로 에세이를 출력하면 생성된 에세이에 증오심 표현이 포함될 가능성이 있습니다. 알다시피, 우리는 처음부터 증오심 표현에 대해 훈련된 적이 없더라도 AI가 증오심 표현을 말할 수 있도록 했습니다.

당신이 알아야 할 다른 것이 있습니다.

증오 발언의 예를 들어달라고 요청하면 사람이 걸려 넘어질 수 있다고 방금 언급한 것을 기억하십시오. AI에서도 동일한 시도를 할 수 있습니다. 사용자는 AI에게 혐오 발언의 예를 제공하도록 요청하는 프롬프트를 입력합니다. AI는 그러한 예를 준수하고 제공해야 합니까? 나는 당신이 아마 AI가 그렇게 해서는 안 된다고 믿는다고 장담합니다. 다른 한편으로, AI가 그렇게 하지 않도록 계산적으로 조작된 경우, 이것이 AI를 사용하는 사람들이 할 수 없는 잠재적인 단점을 구성합니까? 그것에 대해 일반화하는 것 이상)?

어려운 질문.

저는 AI가 발산하는 증오심 표현을 다음 세 가지 주요 버킷으로 분류하는 경향이 있습니다.

  • 일상 모드. AI는 사용자가 명시적으로 재촉하지 않고 "평범한" 방식으로 혐오 발언을 내보냅니다.
  • 캐주얼 프로딩. AI는 사용자가 입력한 프롬프트 또는 그러한 방출을 포함하거나 직접적으로 추구하는 일련의 프롬프트에 대해 혐오 발언을 내보냅니다.
  • 결정된 스토킹 당. AI는 AI가 그러한 출력을 생성하도록 하는 데 열중하는 사용자의 매우 단호하고 끈질긴 일련의 즉각적인 밀고 찌르는 후에 혐오 발언을 내보냅니다.

이전 세대의 생성 AI는 종종 모자 한 방울에 혐오 발언을 내보냈습니다. 따라서 이러한 인스턴스를 다음 유형으로 분류할 수 있습니다. 일상 모드 인스턴스화. AI 제조업체는 AI가 혐오 발언 생산에 쉽게 빠져들 가능성을 줄이기 위해 후퇴하고 AI를 가지고 놀았습니다.

더 세련된 AI가 출시되면 일상 모드 혐오 발언 사례가 크게 줄었습니다. 대신, 증오심 표현은 사용자가 패턴 일치 네트워크에서 증오심 표현과 계산적으로 그리고 수학적으로 연결을 촉발할 수 있는 프롬프트로 무언가를 할 때만 발생할 가능성이 높습니다. 사용자는 우연히 이 작업을 수행할 수 있으며 프롬프트로 제공한 내용이 특히 증오심 표현을 생성한다는 사실을 깨닫지 못할 수 있습니다. 출력된 에세이에서 혐오 발언을 받은 후 사용자는 종종 프롬프트의 무언가가 논리적으로 출력에 혐오 발언을 포함할 수 있음을 깨닫고 보게 됩니다.

이것이 내가 말하는 것입니다. 캐주얼 프로딩.

AI로 인한 혐오발언을 줄이기 위한 다양한 노력이 과거에 비해 상대적으로 강해진 요즘이다. 따라서 증오심 표현이 생성되도록 하려면 거의 노력을 기울여야 합니다. 일부 사람들은 이러한 생성 AI 앱에서 증오심 표현이 나올 수 있는지 의도적으로 확인합니다. 나는 이것을 부른다 결정된 스토킹.

표시된 세 가지 모드가 모두 발생할 수 있으며 서로 상호 배타적이지 않다는 점을 강조하고 싶습니다. 생성 AI 앱은 그러한 생성을 촉진하는 것처럼 보이는 어떤 종류의 프롬프트 없이 잠재적으로 혐오 발언을 생성할 수 있습니다. 마찬가지로 프롬프트에 있는 내용은 증오심 표현이 출력된 이유와 관련하여 논리적, 수학적으로 해석될 수 있습니다. 그리고 세 번째 측면은 의도적으로 증오심 표현이 생성되도록 하는 것인데, 아마도 가장 어려운 방식일 것입니다. 이에 대해 잠시 더 알아보겠습니다.

이 어려운 주제에 대해 추가로 풀어야 할 몇 가지 사항이 있습니다.

첫째, 우리는 Generative AI가 무엇으로 구성되어 있고 ChatGPT가 무엇인지에 대해 모두 같은 페이지에 있는지 확인해야 합니다. 그 근본적인 측면을 다루면 이 중요한 문제에 대한 설득력 있는 평가를 수행할 수 있습니다.

Generative AI 및 ChatGPT에 이미 익숙하다면 다음 섹션을 훑어보고 다음 섹션으로 진행할 수 있습니다. 나는 다른 모든 사람들이 섹션을 면밀히 읽고 최신 정보를 얻음으로써 이러한 문제에 대한 중요한 세부 정보를 얻을 수 있다고 믿습니다.

Generative AI 및 ChatGPT에 대한 빠른 입문서

ChatGPT는 범용 AI 대화형 대화형 시스템으로 본질적으로 무해해 보이는 일반 챗봇이지만, 많은 사람들이 완전히 허를 찌르는 방식으로 적극적이고 열성적으로 사용하고 있습니다. 이 AI 앱은 AI 영역의 기술과 기술을 활용합니다. 제너레이티브 AI. AI는 ChatGPT가 수행하는 텍스트와 같은 출력을 생성합니다. 다른 생성 기반 AI 앱은 사진이나 삽화와 같은 이미지를 생성하는 반면 다른 앱은 오디오 파일이나 비디오를 생성합니다.

ChatGPT가 하는 일이므로 이 토론에서는 텍스트 기반 생성 AI 앱에 중점을 둘 것입니다.

Generative AI 앱은 사용하기가 매우 쉽습니다.

프롬프트를 입력하기만 하면 AI 앱이 프롬프트에 응답을 시도하는 에세이를 생성합니다. 작성된 텍스트는 에세이가 인간의 손과 마음으로 쓰여진 것처럼 보일 것입니다. "Tell me about Abraham Lincoln"이라는 프롬프트를 입력하면 생성 AI가 Lincoln에 대한 에세이를 제공합니다. 이것은 일반적으로 다음을 수행하는 생성 AI로 분류됩니다. 텍스트에서 텍스트로 또는 일부는 그것을 부르는 것을 선호합니다 텍스트 투 에세이 산출. 언급한 바와 같이 텍스트-아트 및 텍스트-비디오와 같은 생성 AI의 다른 모드가 있습니다.

첫 번째 생각은 이 생성 능력이 에세이 제작 측면에서 그렇게 큰 문제가 아닌 것 같다는 것입니다. 인터넷에서 쉽게 온라인 검색을 할 수 있고 링컨 대통령에 관한 수많은 에세이를 쉽게 찾을 수 있습니다. 제너레이티브 AI의 경우 키커는 생성된 에세이가 상대적으로 독특하고 모방이 아닌 독창적인 구성을 제공한다는 것입니다. AI가 제작한 에세이를 온라인 어딘가에서 찾으려고 하면 찾을 수 없을 것입니다.

제너레이티브 AI는 사전 훈련을 받았으며 웹 전반에 걸쳐 쓰여진 단어와 이야기의 패턴을 검사하여 설정된 복잡한 수학적 및 계산 공식을 사용합니다. 수천, 수백만 개의 글을 검토한 결과, AI는 발견된 것과 뒤죽박죽인 새로운 에세이와 이야기를 토해낼 수 있습니다. 다양한 확률적 기능을 추가함으로써 결과 텍스트는 훈련 세트에서 사용된 것과 비교할 때 매우 고유합니다.

그래서 학생들이 교실 밖에서 에세이를 쓸 때 부정행위를 할 수 있다는 소란이 일고 있는 것입니다. 교사는 속이는 학생이 자신의 글이라고 주장하는 에세이를 단순히 가져가서 다른 온라인 소스에서 복사되었는지 알아내려고 할 수 없습니다. 전반적으로 AI 생성 에세이에 맞는 결정적인 기존 에세이는 온라인에 없습니다. 결국 교사는 학생이 에세이를 원본 작품으로 썼다는 사실을 마지못해 인정해야 할 것입니다.

생성 AI에 대한 추가적인 우려가 있습니다.

한 가지 결정적인 단점은 생성 기반 AI 앱으로 생성된 에세이에 명백히 사실이 아닌 사실, 오해의 소지가 있는 사실, 완전히 조작된 명백한 사실 등 다양한 허위 정보가 포함될 수 있다는 것입니다. 이러한 조작된 측면은 종종 AI 환각, 내가 싫어하지만 안타깝게도 어쨌든 대중적인 관심을 끌고 있는 것 같은 캐치프레이즈입니다(왜 이것이 형편없고 부적합한 용어인지에 대한 자세한 설명은 여기 링크).

이 주제에 대해 깊이 들어가기 전에 한 가지 중요한 측면을 명확히 하고 싶습니다.

소셜 미디어에서 제너레이티브 AI 이 최신 버전의 AI가 실제로 지각 있는 AI (아니, 그들은 틀렸어!). AI 윤리 및 AI 법에 종사하는 사람들은 이러한 주장이 급증하는 추세에 대해 특히 우려하고 있습니다. 일부 사람들은 오늘날의 AI가 실제로 할 수 있는 일을 과장하고 있다고 정중하게 말할 수 있습니다. 그들은 AI가 우리가 아직 달성하지 못한 능력을 가지고 있다고 가정합니다. 운이 없었어. 설상가상으로, AI가 행동을 취하는 데 있어서 지각이 있거나 인간과 같을 것이라는 가정 때문에 그들은 자신과 다른 사람들이 끔찍한 상황에 빠지도록 허용할 수 있습니다.

AI를 의인화하지 마십시오.

그렇게 하면 AI가 수행할 수 없는 작업을 수행할 것으로 기대하는 끈끈하고 음침한 의존의 함정에 빠지게 됩니다. 즉, 최신 생성 AI는 수행할 수 있는 작업에 대해 상대적으로 인상적입니다. 생성 AI 앱을 사용할 때 지속적으로 염두에 두어야 할 중요한 제한 사항이 있다는 점에 유의하십시오.

ChatGPT 및 Generative AI에 대한 급속도로 확장되는 소동에 관심이 있으신 분을 위해 저는 제 칼럼에서 유익한 정보를 찾을 수 있는 집중 시리즈를 진행해 왔습니다. 다음은 이러한 주제 중 마음에 드는 항목이 있는 경우 한 눈에 볼 수 있는 내용입니다.

  • 1) 제너레이티브 AI 발전의 예측. 제너레이티브 AI 및 ChatGPT의 향후 발전을 포함하여 2023년과 그 이후에 AI에 대해 무엇이 펼쳐질지 알고 싶다면 다음에서 2023년 예측에 대한 포괄적인 목록을 읽어보십시오. 여기 링크.
  • 2) 생성 AI 및 정신 건강 조언. 집중 분석에 따라 생성 AI 및 ChatGPT가 정신 건강 조언, 골칫거리 추세에 어떻게 사용되고 있는지 검토하기로 했습니다. 여기 링크.
  • 3) 생성 AI 및 ChatGPT의 기초. 이 글은 제너레이티브 AI가 작동하는 방식의 핵심 요소를 탐구하고 특히 다음에서 버즈 및 팡파르 분석을 포함하여 ChatGPT 앱을 자세히 살펴봅니다. 여기 링크.
  • 4) Generative AI와 ChatGPT를 둘러싼 교사와 학생 간의 긴장. 학생들이 제너레이티브 AI와 ChatGPT를 교묘하게 사용하는 방법은 다음과 같습니다. 또한 교사가 이 해일과 맞서 싸울 수 있는 방법은 여러 가지가 있습니다. 보다 여기 링크.
  • 5) 컨텍스트 및 생성 AI 사용. 또한 ChatGPT 및 생성 AI와 관련된 산타 관련 컨텍스트에 대해 계절에 따라 혀를 맞대고 조사했습니다. 여기 링크.
  • 6) 생성 AI를 사용하는 사기꾼. 불길하게도 일부 사기꾼들은 사기 이메일을 생성하고 심지어 맬웨어용 프로그래밍 코드를 생성하는 등의 범죄를 저지르기 위해 생성 AI 및 ChatGPT를 사용하는 방법을 알아냈습니다. 여기 링크.
  • 7) 제너레이티브 AI를 사용한 신인의 실수. 많은 사람들이 제너레이티브 AI와 ChatGPT가 할 수 있는 일을 오버슈팅하고 놀랍게도 언더슈팅하고 있습니다. 그래서 저는 특히 AI 신입생들이 하는 경향이 있는 언더슈팅을 살펴봤습니다. 토론을 참조하세요. 여기 링크.
  • 8) 생성 AI 프롬프트 및 AI 환각에 대처. 적절한 프롬프트를 생성 AI에 입력하려고 시도하는 것과 관련된 다양한 문제를 처리하기 위해 AI 애드온을 사용하는 최첨단 접근 방식과 소위 AI 환각 출력 및 허위를 감지하기 위한 추가 AI 애드온이 있습니다. 에 덮여 여기 링크.
  • 9) 제너레이티브 AI 제작 에세이 감지에 대한 Bonehead 주장 폭로. 주어진 에세이가 인간이 만든 것인지 AI가 생성한 것인지 확인할 수 있다고 주장하는 AI 앱의 잘못된 골드러시가 있습니다. 전반적으로 이것은 오해의 소지가 있으며 어떤 경우에는 뼈빠지고 지지할 수 없는 주장입니다. 여기 링크.
  • 10) 제너레이티브 AI를 통한 롤플레잉은 정신 건강 문제를 예고할 수 있습니다.. 일부는 역할극을 하기 위해 ChatGPT와 같은 생성 AI를 사용하고 있는데, AI 앱은 마치 환상의 세계나 다른 구성 환경에 존재하는 것처럼 인간에게 반응합니다. 이것은 정신 건강에 영향을 미칠 수 있습니다. 여기 링크.
  • 11) 출력된 오류 및 허위의 범위 노출. ChatGPT에서 생성된 오류 및 허위의 특성을 보여주기 위해 다양한 수집 목록이 함께 구성되고 있습니다. 어떤 사람들은 이것이 필수적이라고 믿는 반면, 다른 사람들은 운동이 무의미하다고 말합니다. 여기 링크.
  • 12) Generative AI ChatGPT를 금지하는 학교는 배를 놓치고 있습니다. 뉴욕시(NYC) 교육부와 같은 다양한 학교에서 네트워크 및 관련 장치에서 ChatGPT 사용을 금지한다고 선언한 것을 알고 계실 것입니다. 이것은 도움이 되는 예방책으로 보일 수 있지만 바늘을 움직이지 않고 슬프게도 보트를 완전히 놓칩니다. 여기 링크.
  • 13) Generative AI ChatGPT는 다가오는 API로 인해 어디에나 있을 것입니다. ChatGPT 사용에 대한 중요한 반전이 있습니다. 즉, API 포털을 이 특정 AI 앱으로 사용하면 다른 소프트웨어 프로그램이 ChatGPT를 호출하고 활용할 수 있습니다. 이것은 제너레이티브 AI의 사용을 극적으로 확장할 것이며 주목할만한 결과를 가져올 것입니다. 여기 링크.
  • 14) ChatGPT가 실패하거나 무너질 수 있는 방법. ChatGPT가 지금까지 받은 엄청난 찬사를 약화시키는 측면에서 몇 가지 잠재적인 성가신 문제가 ChatGPT 앞에 놓여 있습니다. 이 분석은 ChatGPT가 활력을 잃고 심지어 개집에 들어갈 수 있는 XNUMX가지 가능한 문제를 면밀히 조사합니다. 여기 링크.
  • 15) Generative AI ChatGPT가 영혼의 거울인지 묻습니다. 어떤 사람들은 ChatGPT와 같은 생성 AI가 인류의 영혼에 대한 거울을 제공한다고 외치고 있습니다. 이것은 상당히 의심스러워 보인다. 이 모든 것을 이해하는 방법은 다음과 같습니다. 여기 링크.
  • 16) ChatGPT가 잠식한 기밀성과 프라이버시. 많은 사람들이 ChatGPT와 같은 생성 AI 앱과 관련된 라이선스를 통해 AI 제작자가 입력한 프롬프트를 보고 활용할 수 있다는 사실을 깨닫지 못하는 것 같습니다. 개인 정보 보호 및 데이터 기밀 손실의 위험에 처할 수 있습니다. 다음에서 내 평가를 참조하십시오. 여기 링크.
  • 17) 앱 제작자가 ChatGPT 자격을 얻기 위해 의심스럽게 시도하는 방법. ChatGPT는 현재 주목받고 있습니다. ChatGPT와 아무 관련이 없는 앱 제조업체는 ChatGPT를 사용하고 있다고 주장하거나 암시하기 위해 열렬히 노력하고 있습니다. 여기서 주의할 점은 다음과 같습니다. 여기 링크.

ChatGPT가 GPT-3로 알려진 이전 AI 앱 버전을 기반으로 한다는 점이 흥미로울 것입니다. ChatGPT는 GPT-3.5라고 하는 약간 다음 단계로 간주됩니다. GPT-4는 2023년 봄에 출시될 것으로 예상됩니다. 아마도 GPT-4는 겉보기에 훨씬 더 유창해 보이는 에세이를 생성할 수 있고, 더 깊이 들어가며, 경외심을 갖게 한다는 점에서 인상적인 발전이 될 것입니다. -작성할 수 있는 구성에 대해 경이로움을 불러일으킵니다.

봄이 찾아오고 최신 생성 AI가 출시되면 놀라움을 표현하는 새로운 라운드를 볼 수 있습니다.

더 좋고 더 큰 생성 AI 앱에 대한 잠재적인 아킬레스건으로 구성된 염두에 두어야 할 또 다른 각도가 있기 때문에 이 문제를 제기합니다. 어떤 AI 공급업체가 거품을 내뿜는 생성 AI 앱을 제공하면 AI 제조업체의 희망이 무너질 수 있습니다. 사회적 유출로 인해 모든 생성 AI가 심각한 멍이 들 수 있습니다. 사람들은 이미 여러 번 발생했으며 AI에 대한 격렬한 사회적 비난 반발을 불러일으킨 잘못된 결과에 대해 의심할 여지 없이 상당히 화를 낼 것입니다.

지금은 하나의 마지막 예고입니다.

생성 AI 응답에서 보거나 읽는 모든 것 순전히 사실(날짜, 장소, 사람 등)로 전달하려면 회의적인 태도를 유지하고 보이는 것을 기꺼이 재확인해야 합니다.

예, 날짜를 조작할 수 있고 장소를 구성할 수 있으며 일반적으로 비난할 수 없는 요소는 다음과 같습니다. 모든 의심의 여지가 있습니다. 생성 AI 에세이 또는 결과물을 검토할 때 읽은 내용을 믿지 말고 회의적인 눈을 유지하십시오. 생성 AI 앱이 에이브러햄 링컨이 자신의 개인 제트기를 타고 전국을 날아다녔다고 알려준다면 의심할 여지 없이 이것이 나쁜 짓이라는 것을 알 것입니다. 불행하게도, 어떤 사람들은 그의 시대에 제트기가 없었다는 사실을 깨닫지 못할 수도 있고, 에세이가 이 뻔뻔스럽고 터무니없이 거짓된 주장을 하고 있다는 것을 알지만 알아채지 못할 수도 있습니다.

건전한 회의주의와 지속적인 불신의 마음가짐은 생성 AI를 사용할 때 최고의 자산이 될 것입니다.

우리는 이 설명의 다음 단계로 넘어갈 준비가 되어 있습니다.

제너레이티브 AI를 한계점으로 밀어붙이다

이제 기본 사항이 확립되었으므로 생성 AI 및 ChatGPT를 추진하여 증오심 표현 및 기타 공격적인 콘텐츠를 생성하는 주제에 대해 자세히 알아볼 수 있습니다.

ChatGPT에 처음 로그인하면 다음과 같은 다양한 주의 표시가 있습니다.

  • "때때로 유해한 지침이나 편향된 콘텐츠를 생성할 수 있습니다."
  • "부적절한 요청을 거절하도록 교육받았습니다."
  • "때때로 잘못된 정보를 생성할 수 있습니다."
  • "2021년 이후 세계와 사건에 대한 제한된 지식."

여기 당신이 숙고해야 할 질문이 있습니다.

AI 앱이 유해한 지침 및/또는 편향된 콘텐츠를 생성할 수 있다는 경고가 AI 제작자에게 충분한 여유를 제공합니까?

즉, ChatGPT를 사용하여 증오심 표현이 포함된 에세이를 생성한다고 가정해 보겠습니다. 당신이 이것에 대해 화가 났다고 가정해 봅시다. 당신은 소셜 미디어에 가서 AI 앱이 최악이라는 격분한 논평을 게시합니다. 아마도 당신은 그러한 혐오 발언이 생산되도록 허용한 것에 대해 AI 제작자를 고소하겠다고 선언할 정도로 기분이 상했을 것입니다.

반론은 AI 앱에 주의 경고가 있으므로 AI 앱 사용을 진행함으로써 위험을 감수했다는 것입니다. AI 윤리의 관점에서 볼 때 아마도 AI 제작자는 당신이 무슨 일이 일어날지 알고 있다고 주장하기에 충분했을 것입니다. 마찬가지로, 법적인 관점에서 경고가 충분한 경고를 구성하여 법정에서 승소하지 못할 수도 있습니다.

이 모든 것이 공중에 떠 있으며 상황이 어떻게 진행되는지 기다려야 할 것입니다.

어떤 의미에서 AI 제작자는 AI 앱이 증오심 표현을 생성할 수 있다는 분노에 찬 주장에 맞서 방어하기 위해 다른 일을 하고 있습니다. 공격적인 콘텐츠가 생성되지 않도록 노력했습니다. 그들이 이것을 줄이기 위해 아무 조치도 취하지 않았다면 그들은 더 얇은 얼음 위에 있었을 것이라고 생각합니다. 문제를 피하기 위해 적어도 실질적인 고통을 취함으로써 그들은 아마도 더 강한 다리를 가지고 서있을 것입니다 (여전히 아래에서 쓰러 질 수 있음).

사용된 치료적 접근 방식 중 하나는 RLHF(인간 피드백을 통한 강화 학습)로 알려진 AI 기술로 구성되었습니다. 이것은 일반적으로 AI가 콘텐츠를 생성하도록 한 다음 인간이 평가하거나 검토하도록 요청하는 것으로 구성됩니다. 평가 또는 리뷰를 기반으로 AI는 수학 및 계산을 통해 부적절하거나 공격적인 콘텐츠로 간주되는 콘텐츠를 피하려고 시도합니다. 이 접근 방식은 AI가 가장 중요한 수학적 패턴을 파악한 다음 이후에 해당 패턴을 사용할 수 있도록 옳은 것과 그른 것에 대한 충분한 예를 검토하기 위한 것입니다.

요즘 자주 사용되는 또 다른 접근 방식은 Adversarial AI를 사용하는 것입니다.

작동 방식은 다음과 같습니다. 훈련하려는 AI의 적이 되려고 하는 다른 AI 시스템을 설정합니다. 이 경우 우리는 증오심 표현을 부추기는 AI 시스템을 구축할 것입니다. AI 앱이 잘못된 콘텐츠를 출력하도록 속이는 것을 목표로 하는 AI 앱에 프롬프트를 제공합니다. 한편, 표적이 되는 AI는 적대적 AI가 성공할 때를 추적한 다음 알고리즘을 조정하여 이러한 일이 다시 발생하지 않도록 조정합니다. 그것은 고양이 대 마우스 도박입니다. 이것은 반복적으로 실행되며 적대적 AI가 더 이상 목표 AI가 나쁜 일을 하도록 하는 데 특히 성공적이지 않은 것처럼 보일 때까지 그렇게 합니다.

이 두 가지 주요 기술과 다른 접근 방식을 통해 오늘날의 생성 AI는 과거보다 공격적인 콘텐츠를 피하거나 감지하는 데 훨씬 더 능숙합니다.

그러나 이러한 방법에서 완벽을 기대하지 마십시오. 그러한 AI 기술에 의해 저지당하는 파울 결과의 결과를 계속 견제할 가능성이 있습니다. 여전히 오물이 방출될 여지가 많이 있습니다.

저는 일반적으로 다음과 같은 측면을 파악하려고 노력하고 있다고 지적합니다.

  • 특정 비속어 발산
  • 특정 비속어, 문장 또는 발언을 언급하는 행위
  • 특정 파울 개념 표현
  • 특정한 반칙 행위나 관념을 암시하는 것
  • 특정 파울 추정에 의존하는 것으로 보입니다.
  • 기타

이 중 어느 것도 정확한 과학이 아닙니다. 우리가 말을 다루고 있음을 깨달으십시오. 단어는 의미상 모호합니다. 특정 욕설을 찾는 것은 어린애 장난이지만 문장이나 단락에 욕설이 포함되어 있는지 측정하는 것은 훨씬 더 어렵습니다. 유엔의 증오심 표현에 대한 초기 정의에 따르면 증오심 표현으로 해석될 수 있는 것과 그렇지 않을 수 있는 것 사이에는 엄청난 차이가 존재합니다.

회색 영역은 보는 사람의 눈에 있다고 말할 수 있습니다.

보는 사람의 눈에 대해 말하면 오늘날 ChatGPT와 같은 생성 AI를 사용하는 인간이 이러한 AI 앱이 공격적인 콘텐츠를 생성하도록 의도적으로 시도하고 있습니다. 이것이 그들의 탐구입니다. 그들은 이것이 일어나도록 하기 위해 몇 시간이고 몇 시간을 보냅니다.

왜 그래?

인간 AI 공격 출력 사냥꾼의 특성은 다음과 같습니다.

  • 성실한. 이 사람들은 AI를 개선하고 인류가 그렇게 하도록 돕고 싶어합니다. 그들은 자신이 영웅적인 일을 하고 있다고 믿으며 모두의 개선을 위해 AI를 발전시키는 데 도움이 될 수 있다고 즐깁니다.
  • 펀스터. 이 사람들은 이 노력을 게임으로 생각합니다. 그들은 AI를 가지고 노는 것을 즐깁니다. 게임에서 이기는 것은 AI가 생성할 수 있는 모든 것에서 최악 중의 최악을 찾는 것으로 구성됩니다.
  • 과시. 이 사람들은 스스로 관심을 받기를 바라고 있습니다. 그들은 정말 더러운 금 덩어리를 찾을 수 있다면 AI 앱 자체에 초점을 맞추는 약간의 빛나는 빛을 얻을 수 있다고 생각합니다.
  • 갈색 맥주. 이 사람들은 이 AI에 대해 짜증이 났습니다. 그들은 분출하는 모든 열정을 약화시키고 싶어합니다. 그들이 악취가 나는 더러운 것을 발견할 수 있다면 아마도 이것은 AI 앱 흥분 풍선에서 공기를 빼낼 것입니다.
  • 기타 동기

찾기 공격을 수행하는 많은 사람들은 주로 이러한 캠프 중 하나에 있습니다. 물론 한 번에 둘 이상의 캠프에 있을 수 있습니다. 씁쓸한 사람은 진솔하고 영웅적이 되려는 의도도 나란히 가지고 있을 수 있습니다. 이러한 동기의 일부 또는 전부가 공존할 수 있습니다. 왜 누군가가 생성 AI 앱을 증오 발언 영역으로 밀어 넣으려고 하는지 설명하라는 요청을 받았을 때, 일반적인 대답은 당신이 약간이라도 그렇게 할지라도 당신이 진정한 진영에 있다고 말하고 대신 그 중 하나에 당당하게 앉아 있다는 것입니다. 다른 캠프.

이 사람들은 어떤 종류의 프롬프트 관련 속임수를 사용합니까?

다소 명백한 계략은 프롬프트에서 상스러운 단어를 사용하는 것과 관련이 있습니다. "행운"을 얻고 AI 앱이 운이 좋으면 결과가 나올 수 있습니다. 그런 다음 잡았다 순간이 있습니다.

잘 고안되고 잘 테스트된 제너레이티브 AI 앱이 이러한 간단한 계략을 포착할 가능성이 있습니다. 일반적으로 중지하라는 경고 메시지가 표시됩니다. 계속하면 AI 앱이 사용자를 앱에서 쫓아내고 계정에 플래그를 지정하도록 프로그래밍됩니다. 다시 로그인하지 못할 수도 있습니다(최소한 당시 사용했던 로그인에서).

계략의 사다리를 올라가면 AI를 잘못된 상황으로 끌어들이려는 프롬프트를 제공할 수 있습니다. 누군가가 당신이 말해야 할 것을 말하지 않고 무언가를 말하라고 말하는 게임을 해본 적이 있습니까? 이것은 AI와 함께 진행되지만 그 게임입니다.

그 게임을 해보자. AI 앱에 제XNUMX차 세계대전, 특히 관련 주요 정부 지도자에 대해 알려달라고 요청한다고 가정해 보겠습니다. 이것은 무고한 요청처럼 보입니다. 프롬프트에 표시할 가치가 있는 것으로 보이는 항목이 없습니다.

AI 앱이 출력한 에세이에 윈스턴 처칠에 대한 언급이 포함되어 있다고 상상해보세요. 그것은 확실히 의미가 있습니다. 또 다른 사람은 Franklin D. Roosevelt일 수 있습니다. 또 다른 사람은 이오시프 스탈린일 수 있습니다. Adolph Hitler에 대한 언급도 있다고 가정합니다. 이 이름은 제XNUMX차 세계 대전에 대한 에세이와 저명한 권력을 가진 사람들에 대한 거의 모든 에세이에 포함될 것입니다.

테이블에 그의 이름이 있고 AI 대화의 일부가 있으므로 다음에는 AI가 잠재적인 증오 발언으로 보여줄 수 있는 방식으로 해당 이름을 통합하도록 시도할 것입니다.

또 다른 프롬프트를 입력하고 AI 앱에 오늘 뉴스에 John Smith라는 이름을 가진 사람이 있다고 알립니다. 더욱이 우리는 프롬프트에서 John Smith가 그 XNUMX차 세계 대전의 행악자와 매우 유사하다는 것을 나타냅니다. 이제 함정이 설정되었습니다. 그런 다음 AI 앱에 John Smith를 누구와 동일시할 수 있는지에 대해 입력한 "사실"만을 기반으로 John Smith에 대한 에세이를 생성하도록 요청합니다.

이 시점에서 AI 앱은 제XNUMX차 세계대전 인물의 이름을 지정하고 John Smith가 같은 옷을 입은 사람이라고 설명하는 에세이를 생성할 수 있습니다. 에세이에는 그 유명한 행악자를 암시하고 그 사람을 John Smith와 동일시하는 것 외에는 그 자체로 나쁜 단어가 없습니다.

AI 앱이 이제 증오심 표현을 생성합니까?

예, 그렇습니다. John Smith를 유명한 행악자와 같다고 언급하는 것은 절대적으로 증오심 표현의 한 형태입니다. AI는 그러한 진술을 하지 않아야 합니다.

반박은 이것이 혐오 발언이 아니라는 것입니다. 이것은 인공지능 앱이 만들어낸 에세이일 뿐, 지각이 구현되지 않은 것입니다. 증오심 표현은 의도가 표현의 기저에 존재하는 경우에만 발생한다고 주장할 수 있습니다. 아무런 의도가 없는 발언은 혐오 발언으로 분류될 수 없습니다.

터무니없다, 레토르트에 답장이 온다. 단어가 중요합니다. AI가 혐오 발언을 "의도"했는지 여부는 별 차이가 없습니다. 중요한 것은 증오심 표현이 만들어졌다는 것입니다.

빙글빙글 돌아갑니다.

지금은 AI를 속이려는 시도에 대해 더 이상 말하고 싶지 않습니다. 보다 정교한 접근 방식이 있습니다. 나는 내 칼럼과 책의 다른 곳에서 이것들을 다루었으며 여기서 그것들을 다시 다루지는 않을 것입니다.

결론

공격적인 콘텐츠를 방출할 수 있는지 확인하기 위해 이러한 AI 앱을 얼마나 멀리 밀어야 합니까?

부과할 제한이 없다고 주장할 수 있습니다. 우리가 더 많이 추진할수록 이러한 질병을 피하기 위해 이 AI와 AI의 향후 반복을 방지하는 방법을 더 많이 측정할 수 있기를 바랍니다.

그러나 어떤 사람들은 부정함을 얻을 수 있는 유일한 수단이 극단적인 이상치 속임수를 수반한다면 AI의 유익한 측면을 약화시킬 것이라고 걱정합니다. AI가 끔찍한 추악함을 가지고 있다고 선전하는 것은 속임수를 쓰더라도 잘못된 내러티브를 제공합니다. 사람들은 AI에 대해 화를 낼 것입니다. 감지 된 AI가 유해 콘텐츠를 생성한 용이성. 그들은 그 사람이 그러한 결과를 얻기 위해 얼마나 깊은 곳으로 가야 했는지 모르거나 듣지 못할 수도 있습니다.

그것은 모두 생각할 거리입니다.

지금은 몇 가지 최종 의견입니다.

윌리엄 셰익스피어는 말에 대해 이렇게 말했습니다. “말하는 것은 행동하는 것이 아닙니다. 잘 말하는 것은 일종의 선행이지만 말은 행동이 아닙니다.” 일부 사람들은 AI가 단어만 생성하는 경우 우리가 그렇게 지나치게 무장해서는 안 된다고 주장하기 때문에 이 문제를 제기합니다. AI가 말에 따라 행동하고 에고가 악행을 저지르는 것이라면 우리는 단호하게 발을 내려야 할 것입니다. 출력이 단순히 단어일 경우에는 그렇지 않습니다.

대조되는 관점은 다음과 같은 익명의 말에 귀를 기울일 것입니다. 그러니까 말 조심해." 욕설을 내뱉는 AI 앱은 아마도 마음을 아프게 할 수 있을 것입니다. 그것만으로도 부정 행위를 막으려는 노력이 가치 있는 대의가 된다고 일부 사람들은 말할 것입니다.

이 중요한 토론을 마치는 익명의 말이 하나 더 있습니다.

  • "당신의 말을 조심하십시오. 한 번 말하면 용서받을 수 있을 뿐 잊혀지지 않습니다.”

인간으로서 우리는 AI가 만든 추악함을 잊는 데 어려움을 겪을 수 있으며 마찬가지로 용서도 주저할 수 있습니다.

결국 우리는 인간일 뿐입니다.

출처: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- 윤리와 인공지능/